基于视频的自动化手术技能评估是协助年轻的外科学员,尤其是在资源贫乏地区的一项有前途的任务。现有作品通常诉诸CNN-LSTM联合框架,该框架对LSTM的长期关系建模在空间汇总的短期CNN功能上。但是,这种做法将不可避免地忽略了空间维度中工具,组织和背景等语义概念之间的差异,从而阻碍了随后的时间关系建模。在本文中,我们提出了一个新型的技能评估框架,视频语义聚合(Visa),该框架发现了不同的语义部分,并将它们汇总在时空维度上。语义部分的明确发现提供了一种解释性的可视化,以帮助理解神经网络的决策。它还使我们能够进一步合并辅助信息,例如运动学数据,以改善表示和性能。与最新方法相比,两个数据集的实验显示了签证的竞争力。源代码可在以下网址获得:bit.ly/miccai2022visa。
translated by 谷歌翻译
我们引入了一个可扩展的框架,用于从RGB-D图像中具有很大不完整的场景覆盖率的新型视图合成。尽管生成的神经方法在2D图像上表现出了惊人的结果,但它们尚未达到相似的影像学结果,并结合了场景完成,在这种情况下,空间3D场景的理解是必不可少的。为此,我们提出了一条在基于网格的神经场景表示上执行的生成管道,通过以2.5D-3D-2.5D方式进行场景的分布来完成未观察到的场景部分。我们在3D空间中处理编码的图像特征,并具有几何完整网络和随后的纹理镶嵌网络,以推断缺失区域。最终可以通过与一致性的可区分渲染获得感性图像序列。全面的实验表明,我们方法的图形输出优于最新技术,尤其是在未观察到的场景部分中。
translated by 谷歌翻译
很少有动作识别旨在仅使用少量标记的训练样本识别新型动作类别。在这项工作中,我们提出了一种新颖的方法,该方法首先将每个视频汇总到由一组全球原型和一组集中原型组成的复合原型中,然后比较基于原型的视频相似性。鼓励每个全局原型总结整个视频中的特定方面,例如动作的开始/演变。由于没有针对全球原型提供明确的注释,因此我们使用一组专注的原型专注于视频中的某些时间戳。我们通过匹配支持视频和查询视频之间的复合原型来比较视频相似性。例如,从相同的角度来比较视频,以比较两个动作是否同样开始。对于集中的原型,由于动作在视频中具有各种时间变化,因此我们采用两分匹配,以比较具有不同时间位置和偏移的动作。实验表明,我们提出的方法在多个基准上实现了最先进的结果。
translated by 谷歌翻译
物体负担是人类对象互动中的一个重要概念,它基于人类运动能力和物体的物理特性提供有关行动可能性的信息,从而使任务受益,例如行动预期和机器人模仿学习。但是,现有数据集通常:1)将负担能力与对象功能混合在一起;2)将负担与目标相关的动作混淆;3)忽略人类运动能力。本文提出了一个有效的注释方案,通过将目标 - 毫无疑问的运动动作和将类型抓住为负担性标签,并引入机械作用的概念来解决这些问题,以表示两个对象之间的动作可能性。我们通过将该方案应用于Epic-Kitchens数据集并通过“负担能力识别”等任务来测试我们的注释,从而提供新的注释。我们定性地验证了接受注释训练的模型可以区分负担能力和机械行动。
translated by 谷歌翻译
我们研究了人们与对象互动的动态环境中识别对象实例的问题。在这样的环境中,对象的外观通过与其他实体的相互作用,手动阻塞,背景变化等动态变化。这会导致外观内部范围更大的外观变化,而不是在静态环境中。为了发现这种情况下的挑战,我们新建立了在Epic-Kitchens数据集中建立的1,500多个实例的基准,该数据集包括自然活动并对IT进行了广泛的分析。实验结果表明(i)针对特定实例的外观变化的鲁棒性(ii)集成低级(例如,颜色,纹理)和高级(例如,对象类别)功能(iii)重叠对象上的前景特征选择是进一步改进所必需的。
translated by 谷歌翻译
我们的目标是在新的成像条件下(例如,户外)在新的成像条件下(例如,在非常不同的条件下拍摄的图像(例如室内)时(室内),在新成像条件(例如室外)下(例如室外),在新的成像条件下(例如室外)进行分割的像素级掩盖的性能。在现实世界中,重要的是在各种成像条件下进行培训的模型都必须运行。但是,它们被现有标记的手数据集涵盖的变化是有限的。因此,有必要调整在标记的图像(源)上训练的模型,以使其具有看不见的成像条件的未标记图像(目标)。尽管已经为这两项任务开发了自我训练域的适应方法(即以自我监督的方式学习以自我监督的方式学习),但当目标图像的预测嘈杂时,它们的训练可能会降低性能。为了避免这种情况,至关重要的是,在自我训练过程中,为嘈杂的预测分配了较低的重要性(置信度)。在本文中,我们建议利用两个预测的差异来估计目标图像对这两个任务的信心。这些预测来自两个单独的网络,它们的差异有助于确定嘈杂的预测。为了将我们提出的信心估计纳入自我训练中,我们提出了一个教师学生的框架,在该框架中,两个网络(教师)为网络(学生)提供自我培训的监督,并通过知识蒸馏从学生那里学习教师。我们的实验表明,在具有不同照明,握住对象,背景和摄像机观点的适应设置中,其优于最先进的方法。与最新的对抗适应方法相比,我们的方法在HO3D上的多任务得分提高了4%。我们还验证了我们在室外成像条件下快速变化的Ego4d的方法。
translated by 谷歌翻译
第一人称行动认可是视频理解中有挑战性的任务。由于强烈的自我运动和有限的视野,第一人称视频中的许多背景或嘈杂的帧可以在其学习过程中分散一个动作识别模型。为了编码更多的辨别特征,模型需要能够专注于视频的最相关的动作识别部分。以前的作品通过应用时间关注但未能考虑完整视频的全局背景来解决此问题,这对于确定相对重要的部分至关重要。在这项工作中,我们提出了一种简单而有效的堆叠的临时注意力模块(STAM),以基于跨越剪辑的全球知识来计算时间注意力,以强调最辨别的特征。我们通过堆叠多个自我注意层来实现这一目标。而不是天真的堆叠,这是实验证明是无效的,我们仔细地设计了每个自我关注层的输入,以便在产生时间注意力期间考虑视频的本地和全局背景。实验表明,我们提出的STAM可以基于大多数现有底座的顶部构建,并提高各个数据集中的性能。
translated by 谷歌翻译
人的凝视是一种成本效益的生理数据,揭示了人类的潜在注意力模式。选择性注意机制有助于通过忽略分散剂的存在,帮助认知系统专注于任务相关的视觉线索。由于这种能力,人类可以有效地从一个非常有限数量的训练样本中学习。灵感来自这种机制,我们旨在利用具有小型训练数据的医学图像分析任务的凝视。我们所提出的框架包括骨干编码器和选择性注意网络(SAN),用于模拟潜在的注意力。 SAN通过估计实际的人的凝视,隐含地编码与医学诊断任务相关的可疑区域。然后我们设计一种新颖的辅助注意力块(AAB),以允许从骨干编码器使用SAN的信息,以专注于选择性区域。具体而言,该块使用多针注意层的修改版本来模拟人类视觉搜索过程。请注意,SAN和AAB可以插入不同的底部,并且在配备有任务特定的头部时,该框架可用于多个医学图像分析任务。我们的方法经过证明在3D肿瘤分割和2D胸X射线分类任务中实现了卓越的性能。我们还表明,SAN的估计凝视概率图与由董事会认证的医生获得的实际凝视固定图一致。
translated by 谷歌翻译
该属性方法通过识别和可视化占据网络输出的输入区域/像素来提供用于以可视化方式解释不透明神经网络的方向。关于视觉上解释视频理解网络的归因方法,由于视频输入中存在的独特的时空依赖性以及视频理解网络的特殊3D卷积或经常性结构,它具有具有挑战性。然而,大多数现有的归因方法专注于解释拍摄单个图像的网络作为输入,并且少量设计用于视频归属的作品来处理视频理解网络的多样化结构。在本文中,我们调查了与多样化视频理解网络兼容的基于通用扰动的归因方法。此外,我们提出了一种新的正则化术语来增强方法,通过限制其归属的平滑度导致空间和时间维度。为了评估不同视频归因方法的有效性而不依赖于手动判断,我们引入了通过新提出的可靠性测量检查的可靠的客观度量。我们通过主观和客观评估和与多种重要归因方法进行比较验证了我们的方法的有效性。
translated by 谷歌翻译
Target Propagation (TP) is a biologically more plausible algorithm than the error backpropagation (BP) to train deep networks, and improving practicality of TP is an open issue. TP methods require the feedforward and feedback networks to form layer-wise autoencoders for propagating the target values generated at the output layer. However, this causes certain drawbacks; e.g., careful hyperparameter tuning is required to synchronize the feedforward and feedback training, and frequent updates of the feedback path are usually required than that of the feedforward path. Learning of the feedforward and feedback networks is sufficient to make TP methods capable of training, but is having these layer-wise autoencoders a necessary condition for TP to work? We answer this question by presenting Fixed-Weight Difference Target Propagation (FW-DTP) that keeps the feedback weights constant during training. We confirmed that this simple method, which naturally resolves the abovementioned problems of TP, can still deliver informative target values to hidden layers for a given task; indeed, FW-DTP consistently achieves higher test performance than a baseline, the Difference Target Propagation (DTP), on four classification datasets. We also present a novel propagation architecture that explains the exact form of the feedback function of DTP to analyze FW-DTP.
translated by 谷歌翻译